GUIAgents

导言

2025年被说成是Agent元年,

251229 MAI-UI

阿里巴巴团队提出的MAI-UI^1是首个面向真实场景的全尺寸基础GUI代理系列(含2B/8B/32B/235B-A22B模型),通过三项创新突破行业瓶颈:

  1. 自进化数据管道
    • 融合用户交互与MCP工具调用数据,支持ask_user(主动澄清模糊指令)和mcp_call(调用API压缩长操作序列)扩展动作。
    • 采用迭代拒绝采样生成高质量轨迹,复用失败轨迹中的正确操作前缀。
  2. 原生设备-云协作系统
    • 动态路由任务:本地代理监控执行偏差与隐私敏感数据,仅在必要时调用云端大模型。
    • 效果:减少40%云调用,40.5%任务完全在设备端完成,隐私数据零上传(见图11)。
  3. 动态环境在线强化学习
    • 支持50步长交互序列,通过容器化技术并行512个Android环境,训练效率提升50.1%。
    • 奖励设计:任务完成奖励+重复操作惩罚,结合经验回放稳定学习过程。
    • 增强的GRPO算法: enhanced GRPO with data curriculum, repetition penalty, and experience replay (数据课程、重复惩罚和经验回放)

经验回放

我们保留了一个在训练中收集的成功轨迹的回放缓冲。当一个rollout组没有成功完成时,我们用从缓冲区中随机采样的轨迹来增加它。缓冲区不断更新新的成功经验,每个任务只保留最近的八个轨迹,以保持接近策略的学习。这种机制确保了即使在具有挑战性的探索阶段也能持续学习信号,稳定训练并加速收敛。

⚙️ 二、技术架构:统一多能力代理框架

  1. 基础能力
  • GUI定位:采用”指令即推理”范式(Instruction-as-Reasoning),从外观/功能/位置/意图四视角生成指令,提升复杂界面定位精度(如ScreenSpot-Pro达73.5%)。
  • 动作空间:支持点击、滑动、文本输入等基础操作,扩展用户交互与MCP工具调用(见表1)。
  1. 设备-云协作机制
  • 本地代理:双角色设计(GUI操作+轨迹监控),实时检测操作偏差并生成错误摘要。
  • 统一轨迹内存:同步设备端与云端的历史指令、截图及模型输出,确保无缝切换(见图7)。
  1. 训练流程
    四阶段训练:监督微调(SFT)→定位强化学习→导航在线RL→设备端模型蒸馏。

三、 关键能力验证

  • MCP工具调用:在MobileWorld的MCP任务中达51.1%成功率(如图8a,通过高德API压缩路线比对操作)。
  • 用户交互:在需澄清的任务中成功率37.5%(如图9,主动询问邮件收件人)。
  • 设备端性能:2B模型+DCC系统达65.5%成功率,超越纯云模型(见图10)。

💡 四、应用价值与开源计划

  • 现实意义:解决GUI代理的隐私风险(如图11)、长操作脆弱性(MCP工具压缩)、指令歧义(主动澄清)三大落地痛点。
  • 开源计划:模型、代码与MobileWorld评测基准已发布于[GitHub链接],推动社区共建真实场景GUI代理生态。

参考文献

Author

Shaojie Tan

Posted on

2025-12-31

Updated on

2025-12-31

Licensed under